Purpose: Tracking the 3D motion of the surgical tool and the patient anatomy is a fundamental requirement for computer-assisted skull-base surgery. The estimated motion can be used both for intra-operative guidance and for downstream skill analysis. Recovering such motion solely from surgical videos is desirable, as it is compliant with current clinical workflows and instrumentation. Methods: We present Tracker of Anatomy and Tool (TAToo). TAToo jointly tracks the rigid 3D motion of patient skull and surgical drill from stereo microscopic videos. TAToo estimates motion via an iterative optimization process in an end-to-end differentiable form. For robust tracking performance, TAToo adopts a probabilistic formulation and enforces geometric constraints on the object level. Results: We validate TAToo on both simulation data, where ground truth motion is available, as well as on anthropomorphic phantom data, where optical tracking provides a strong baseline. We report sub-millimeter and millimeter inter-frame tracking accuracy for skull and drill, respectively, with rotation errors below 1{\deg}. We further illustrate how TAToo may be used in a surgical navigation setting. Conclusion: We present TAToo, which simultaneously tracks the surgical tool and the patient anatomy in skull-base surgery. TAToo directly predicts the motion from surgical videos, without the need of any markers. Our results show that the performance of TAToo compares favorably to competing approaches. Future work will include fine-tuning of our depth network to reach a 1 mm clinical accuracy goal desired for surgical applications in the skull base.
translated by 谷歌翻译
现在,人工智能(AI)可以自动解释医学图像以供临床使用。但是,AI在介入图像中的潜在用途(相对于参与分类或诊断的图像),例如在手术期间的指导,在很大程度上尚未开发。这是因为目前,使用现场分析对现场手术收集的数据进行了事后分析,这是因为手术AI系统具有基本和实际限制,包括道德考虑,费用,可扩展性,数据完整性以及缺乏地面真相。在这里,我们证明从人类模型中创建逼真的模拟图像是可行的替代方法,并与大规模的原位数据收集进行了补充。我们表明,对现实合成数据的训练AI图像分析模型,结合当代域的概括或适应技术,导致在实际数据上的模型与在精确匹配的真实数据训练集中训练的模型相当地执行的模型。由于从基于人类的模型尺度的合成生成培训数据,因此我们发现我们称为X射线图像分析的模型传输范式(我们称为Syntheex)甚至可以超越实际数据训练的模型,因为训练的有效性较大的数据集。我们证明了合成在三个临床任务上的潜力:髋关节图像分析,手术机器人工具检测和COVID-19肺病变分割。 Synthex提供了一个机会,可以极大地加速基于X射线药物的智能系统的概念,设计和评估。此外,模拟图像环境还提供了测试新颖仪器,设计互补手术方法的机会,并设想了改善结果,节省时间或减轻人为错误的新技术,从实时人类数据收集的道德和实际考虑方面摆脱了人为错误。
translated by 谷歌翻译
主管机器人辅助外科医生的需求逐步扩大,因为由于其临床优势,机器人辅助手术已逐渐变得越来越受欢迎。为了满足这一需求并为外科医生提供更好的外科教育,我们通过整合人工智能外科模块和增强现实可视化来开发一种新的机器人外科教育系统。人工智能融入了强化倾向于从专家演示中学习,然后产生3D引导轨迹,提供完整外科手术的外科语境意识。轨迹信息在DVRK中的立体观看者中进一步可视化,以及诸如文本提示的其他信息,其中用户可以感知3D指导并学习过程。拟议的系统通过初步试验来评估外科教育任务挂接转移,这证明了其可行性和潜力作为下一代机器人辅助手术教育解决方案。
translated by 谷歌翻译
时间一致的深度估计对于诸如增强现实之类的实时应用至关重要。虽然立体声深度估计已经接受了显着的注意,导致逐帧的改进,虽然相对较少的工作集中在跨越帧的时间一致性。实际上,基于我们的分析,当前立体声深度估计技术仍然遭受不良时间一致性。由于并发对象和摄像机运动,在动态场景中稳定深度是挑战。在在线设置中,此过程进一步加剧,因为只有过去的帧可用。在本文中,我们介绍了一种技术,在线设置中的动态场景中产生时间一致的深度估计。我们的网络增强了具有新颖运动和融合网络的当前每帧立体声网络。通过预测每个像素SE3变换,运动网络占对象和相机运动。融合网络通过用回归权重聚合当前和先前预测来提高预测的一致性。我们在各种数据集中进行广泛的实验(合成,户外,室内和医疗)。在零射泛化和域微调中,我们证明我们所提出的方法在数量和定性的时间稳定和每个帧精度方面优于竞争方法。我们的代码将在线提供。
translated by 谷歌翻译
外科模拟器不仅允许规划和培训复杂的程序,而且还提供了为算法开发产生结构化数据的能力,这可以应用于图像引导的计算机辅助干预措施。虽然在外科医生或数据生成引擎的发展培训平台上,但我们知识的这两个功能尚未一起提供。我们展示了我们的开发成本效益和协同框架,命名为异步多体框架加(AMBF +),它与练习其外科技能的用户同时生成下游算法开发的数据。 AMBF +在虚拟现实(VR)设备上提供立体显示器,并触觉外科仿真的触觉反馈。它还可以生成不同的数据,例如对象姿势和分段图。 AMBF +采用柔性插件设置设计,可允许仿真仿真不同外科手术。我们将AMBF +的一个用例显示为虚拟钻探模拟器,用于横向颅底手术,用户可以使用虚拟手术钻积极地修改患者解剖结构。我们进一步演示如何生成的数据可用于验证和培训下游计算机视觉算法
translated by 谷歌翻译
机器人辅助手术现已在临床实践中成熟,已成为几种临床适应症的黄金标准临床治疗选择。有机器人辅助手术的领域预计将在未来十年内大幅增长,其中一系列新的机器人设备出现以解决不同专业的未满足临床需求。充满活力的手术机器人研究界是概念化这种新系统的关键,以及开发和培训工程师和科学家们将它们转化为实践。 Da Vinci研究套件(DVRK),学术界和行业合作努力重新登记达芬奇外科系统(直观的Surgical Inc,USA)作为用于外科机器人研究的研究平台,是解决A的关键倡议在外科机器人中进入新研究群体的障碍。在本文中,我们对过去十年来的DVRK促进的出版物进行了广泛的审查。我们将研究努力分类为不同的类别,并概述了机器人社区的一些主要挑战和需求,以维护这一倡议并建立在它上面。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
Contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning multilingual text embeddings which can be used to retrieve or score sentence pairs. Our model operates on parallel data in $N$ languages and, through an approximation we introduce, efficiently encourages source separation in this multilingual setting, separating semantic information that is shared between translations from stylistic or language-specific variation. We show careful large-scale comparisons between contrastive and generation-based approaches for learning multilingual text embeddings, a comparison that has not been done to the best of our knowledge despite the popularity of these approaches. We evaluate this method on a suite of tasks including semantic similarity, bitext mining, and cross-lingual question retrieval -- the last of which we introduce in this paper. Overall, our Variational Multilingual Source-Separation Transformer (VMSST) model outperforms both a strong contrastive and generative baseline on these tasks.
translated by 谷歌翻译
接受高等教育对于少数族裔和新兴双语学生至关重要。但是,高等教育机构用来与准学生交流的语言通常太复杂了。具体而言,美国的许多机构发布录取申请指令远远高于典型高中毕业生的平均阅读水平,通常接近13年级或14年级。这导致学生之间不必要的障碍和获得高等教育。这项工作旨在通过简化文本来应对这一挑战。我们介绍PSAT(专业简化的录取文本),这是一个数据集,其中有112条从美国的高等教育机构中随机选择的录取说明。然后,这些文本将被专业地简化,并被各个机构招生办公室的专职员工专家进行了验证和接受。此外,PSAT带有1,883个原始简化句子对的手动对齐。结果是在与现有简化资源不同的高风险流派中评估和微调文本简化系统的首个语料库。
translated by 谷歌翻译
在人机协作中,机器人错误是不可避免的 - 损害用户信任,愿意共同努力以及任务绩效。先前的工作表明,人们自然会对机器人错误的社会响应,并且在社交互动中,可以使用人类反应来检测错误。但是,在非社交,人类机器人协作(例如组装和工具检索)的领域中,几乎没有探索。在这项工作中,我们研究了人们对机器人错误的有机社会反应如何用于及时自动检测物理人类机器人相互作用中的错误。我们进行了一项数据收集研究,以获取面部响应以培训实时检测算法和案例研究,以探索我们通过不同的任务设置和错误的方法的普遍性。我们的结果表明,自然的社会响应是即使在非社会上下文中的机器人错误及时检测和定位的有效信号,并且我们的方法在各种任务上下文,机器人错误和用户响应中都具有牢固性。这项工作有助于无需详细的任务规格检测强大的错误检测。
translated by 谷歌翻译